home *** CD-ROM | disk | FTP | other *** search
/ MacFormat 1994 August / August CD.bin / Shareware / Education / MacPattern 3.2 / Help Data / Help Data.rsrc / TEXT_423_Pattern Databases.txt < prev    next >
Encoding:
Text File  |  1993-12-07  |  4.7 KB  |  61 lines

  1. MacPattern was originally developed to provide Macintosh software that utilises Amos Bairoch‚Äôs PROSITE database (Bairoch, 1991). Nonetheless, MacPattern is not restricted to PROSITE but will accept any database file that uses PROSITE format. A description of the PROSITE pattern syntax can be found in Appendix B of this manual. For a more detailed description of the PROSITE database format see the PROSITE user manual.
  2.  
  3.  
  4. PROSITE
  5.  
  6. PROSITE is contained on the EMBL CD-ROM and the SWISS-PROT database tape. Additionally, it can be obtained electronically from the EMBL File Server in the directory PROSITE. If you are not familiar with the EMBL File Server, first send a normal electronic mail message to NetServ@EMBL-Heidelberg.DE containing only the single line:
  7. HELP
  8. to get introductory information.
  9.  
  10. Prosite can also be obtained by anonymous ftp from ftp.embl-heidelberg.de in /pub/databases/prosite or from ncbi.nlm.nih.gov in /repository/prosite.
  11.  
  12.  
  13. PROSITE consists of two main parts: prosite.dat and prosite.doc.
  14.  
  15. Prosite.dat contains basic information about protein patterns in a format similar to the EMBL and SWISS-PROT databases. In addition to patterns, PROSITE contains ‚Äúrules‚Äù and (announced for future releases) ‚Äúmatrices‚Äù to describe protein consensus sequences. Since rules are free text and the matrix format has not been defined yet, MacPattern will ignore those entries.
  16.  
  17. Prosite.doc contains textual information that fully documents the consensus sequences contained in prosite.dat. The .dat and .doc files are cross-referenced.
  18.  
  19. To use PROSITE with MacPattern follow the instructions given in the ‚ÄòInstallation‚Äô chapter of this help file. Always keep the PROSITE database files and the index file in one folder if you want to have access to the documentation.
  20.  
  21.  
  22. Private Pattern Databases
  23.  
  24. You may construct your own database files as well. MacPattern‚Äôs indexing routines require that these files carry the extensions .dat and .doc just like the original PROSITE database files.
  25.  
  26. In fact, you do not need a .doc file. A .dat file is sufficient, but if you have a .doc file keep it in the same folder.
  27.  
  28. Make sure that you strictly follow the PROSITE syntax when you construct your files!
  29. The only line types required by MacPattern are:
  30.  
  31. .dat file: 
  32. ID   line
  33. AC  line
  34. PA  line(s)
  35. DO  line (only required if you also have a .Doc file)
  36. //     line
  37.  
  38. .doc file:
  39. {PDOCnnnnn} line
  40. {END}            line
  41.  
  42.  
  43. Results of Pattern Searches
  44.  
  45. In a pattern search each input sequence is compared against all patterns selected from a database browser window or against a pattern entered manually using the Enter Pattern command.
  46.  
  47. The output displays for each sequence independently all matches to these patterns. If there is no match at all against an input sequence, this sequence will not be mentioned in the output. The menu commands Sort Results by Pattern and Sort Results by Location allow you to modify the order in which matches are listed.
  48.  
  49. For each match, the output lists the pattern description (i.e. accession number and entry name), the sequence position at which the match begins, and the matching region of the input sequence.
  50.  
  51. At the end there is a short summary of the number of sequences and residues searched, the total number of hits found, and the execution time of the search.
  52.  
  53. DNA Pattern Databases
  54.  
  55. Although MacPattern was designed to work with protein sequences and patterns, it also works with DNA sequences and patterns. No part of the pattern search routines is protein-sequence specific.
  56.  
  57. A relational database of transcription factors (TFD) is maintained by David Ghosh from the National Center for Biotechnology Information (NCBI), Bethesda. A program called tfd2prosite is available to reformat several tables of this database into PROSITE format which can then be used with MacPattern. Tfd2prosite can be downloaded as an ANSI C source file from the EMBL File Server (NetServ@EMBL-Heidelberg.DE). The TFD database can be obtained most conveniently via anonymous ftp from ncbi.nlm.nih.gov. If you cannot use ftp you may also get a copy by mail from the EMBL File Server in the directory TFD, but be aware that the whole database is several megabytes in size.
  58.  
  59. Although it is certainly possible to use MacPattern with databases like TFD to identify patterns in DNA sequences, this approach is probably not adequate. DNA consensus sequences are in general less conserved and more ambiguous than protein consensus sequences and the PROSITE/MacPattern approach for characterising/identifying such sequences is, in my opinion, not appropriate for identifying DNA patterns. 
  60.  
  61. Important: If you want to analyse nucleotide sequences, make sure that the "Translation" option in the General Options dialog is set to "none"!